智能论文笔记

Ensembling Transformers for Cross-domain Automatic Term Extraction

Hanh Thi Hong Tran , Matej Martinc , Andraz Pelicon , Antoine Doucet , Senja Pollak

分类：自然语言处理

2022-12-12

Automatic term extraction plays an essential role in domain language understanding and several natural language processing downstream tasks. In this paper, we propose a comparative study on the predictive power of Transformers-based pretrained language models toward term extraction in a multi-language cross-domain setting. Besides evaluating the ability of monolingual models to extract single- and multi-word terms, we also experiment with ensembles of mono- and multilingual models by conducting the intersection or union on the term output sets of different language models. Our experiments have been conducted on the ACTER corpus covering four specialized domains (Corruption, Wind energy, Equitation, and Heart failure) and three languages (English, French, and Dutch), and on the RSDO5 Slovenian corpus covering four additional domains (Biomechanics, Chemistry, Veterinary, and Linguistics). The results show that the strategy of employing monolingual models outperforms the state-of-the-art approaches from the related work leveraging multilingual models, regarding all the languages except Dutch and French if the term extraction task excludes the extraction of named entity terms. Furthermore, by combining the outputs of the two best performing models, we achieve significant improvements.

translated by 谷歌翻译

Named entity recognition architecture combining contextual and global features

Tran Thi Hong Hanh , Antoine Doucet , Nicolas Sidere , Jose G. Moreno , Senja Pollak

分类：自然语言处理

2021-12-15

命名实体识别（ner）是一种信息提取技术，其旨在在文档中定位和分类为预定义类别的文档中的命名实体（例如，组织，位置，......）。正确识别这些短语在简化信息访问方面发挥着重要作用。但是，它仍然是一项艰巨的任务，因为命名实体（NES）具有多种形式，它们是上下文相关的。虽然上下文可以通过上下文特征来表示，但是这些模型通常误解了全局关系。在本文中，我们提出了从图形卷积网络（GCN）的XLNET和全局特征的上下文特征的组合来增强NER性能。在一个广泛使用的数据集，2003年的实验，展示了我们战略的好处，结果与现有技术（SOTA）竞争。

translated by 谷歌翻译

ViNMT: Neural Machine Translation Tookit

Nguyen Hoang Quan , Nguyen Thanh Dat , Nguyen Hoang Minh Cong , Nguyen Van Vinh , Ngo Thi Vinh , Nguyen Phuong Thai , Tran Hong Viet

分类：自然语言处理 | 机器学习

2021-12-31

我们为神经机翻译（NMT）提供了一个开源工具包。新工具包主要基于拱形变压器（Vaswani等，2017）以及下面详述的许多其他改进，以便创建一个独立的，易于使用，一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具，从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。

translated by 谷歌翻译

Predicting Job Titles from Job Descriptions with Multi-label Text Classification

Hieu Trung Tran , Hanh Hong Phuc Vo , Son T. Luu

分类：自然语言处理

2021-12-21

寻找合适的工作和狩猎符合条件的候选人对求职和人力资源机构来说很重要。通过关于职位描述的广泛信息，员工和雇主需要帮助，以根据职位描述文本自动检测职位标题。在本文中，我们提出了用于预测作业描述文本的相关职位标题的多标签分类方法，并实现具有不同预先训练的语言模型的BI-GRU-LSTM-CNN来申请作业标题预测问题。具有多语言预先训练模型的伯特获得了开发和测试集的F1分数的最高结果，该组在开发集中为62.20％，测试集47.44％。

translated by 谷歌翻译

LG-Hand: Advancing 3D Hand Pose Estimation with Locally and Globally Kinematic Knowledge

Tu Le-Xuan , Trung Tran-Quang , Thi Ngoc Hien Doan , Thanh-Hai Tran

分类：计算机视觉

2022-11-06

3D hand pose estimation from RGB images suffers from the difficulty of obtaining the depth information. Therefore, a great deal of attention has been spent on estimating 3D hand pose from 2D hand joints. In this paper, we leverage the advantage of spatial-temporal Graph Convolutional Neural Networks and propose LG-Hand, a powerful method for 3D hand pose estimation. Our method incorporates both spatial and temporal dependencies into a single process. We argue that kinematic information plays an important role, contributing to the performance of 3D hand pose estimation. We thereby introduce two new objective functions, Angle and Direction loss, to take the hand structure into account. While Angle loss covers locally kinematic information, Direction loss handles globally kinematic one. Our LG-Hand achieves promising results on the First-Person Hand Action Benchmark (FPHAB) dataset. We also perform an ablation study to show the efficacy of the two proposed objective functions.

translated by 谷歌翻译

Toward the smooth mesh climbing of a miniature robot using bioinspired soft and expandable claws

Hong Wang , Peng Liu , Phuoc Thanh Tran Ngoc , Bing Li , Yao Li , Hirotaka Sato

分类：机器人

2022-06-15

尽管大多数微型机器人在坚固耐用的地形上都面临困难，但甲虫可以在复杂的底物上平稳行走而不会滑倒或粘在地面上，因为它们的刚度可变可变的塔西（Tarsi）和可在塔西（Tarsi）的尖端上伸展的钩子。在这项研究中，我们发现甲虫会积极弯曲并定期扩大爪子以在网状表面上自由爬行。受甲虫的爬行机制的启发，我们设计了一个8厘米的微型攀岩机器人，以与天然甲虫相同的循环方式打开和弯曲的人造爪。机器人可以在网格表面上以可控步态自由攀爬，陡峭的斜角60 {\ deg}，甚至过渡表面。据我们所知，这是第一个可以同时攀登网格表面和悬崖倾斜的微型机器人。

translated by 谷歌翻译

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

Nguyen Thanh Duc , Nguyen Thi Oanh , Nguyen Thi Thuy , Tran Minh Triet , Dinh Viet Sang

分类：计算机视觉

2022-05-17

识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络（CNN），变压器及其组合的模型，以分割息肉以有希望的结果。但是，这些方法在模拟息肉的局部外观方面存在局限性，或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络，即结肠形式，以解决这些局限性。 Colonformer是一种编码器架构，能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构，用于在多尺度上建模全局语义关系。解码器是一种层次结构结构，旨在学习多层功能以丰富特征表示。此外，添加了一个新的Skip连接技术，以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验，以进行息肉分割，包括Kvasir，CVC-Clinic DB，CVC-ColondB，CVC-T和Etis-Larib。实验结果表明，我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。

translated by 谷歌翻译

Collaborative Learning for Cyberattack Detection in Blockchain Networks

Tran Viet Khoa , Do Hai Son , Dinh Thai Hoang , Nguyen Linh Trung , Tran Thi Thuy Quynh , Diep N. Nguyen , Nguyen Viet Ha , Eryk Dutkiewicz

分类：机器学习

2022-03-21

本文旨在研究入侵攻击，然后为区块链网络开发新的网络攻击检测框架。具体来说，我们首先在实验室设计和实施区块链网络。该区块链网络将实现两个目的，即为我们的学习模型生成真实的流量数据（包括正常数据和攻击数据），并实施实时实验，以评估我们建议的入侵检测框架的性能。据我们所知，这是第一个在区块链网络中用于网络攻击的实验室中合成的数据集。然后，我们提出了一个新颖的协作学习模型，该模型允许区块链网络中的有效部署来检测攻击。提出的学习模型的主要思想是使区块链节点能够积极收集数据，从其数据中分享知识，然后与网络中的其他区块链节点交换知识。这样，我们不仅可以利用网络中所有节点的知识，而且还不需要收集所有原始数据进行培训，以便在常规的集中学习解决方案等集中式节点上进行培训。这样的框架还可以避免暴露本地数据的隐私以及过多的网络开销/拥堵的风险。密集模拟和实时实验都清楚地表明，我们提出的基于协作的入侵检测框架可以在检测攻击方面达到高达97.7％的准确性。

translated by 谷歌翻译

Deep Transfer Learning: A Novel Collaborative Learning Model for Cyberattack Detection Systems in IoT Networks

Tran Viet Khoa , Dinh Thai Hoang , Nguyen Linh Trung , Cong T. Nguyen , Tran Thi Thuy Quynh , Diep N. Nguyen , Nguyen Viet Ha , Eryk Dutkiewicz

分类：机器学习

2021-12-02

联邦学习（FL）最近成为网络攻击检测系统的有效方法，尤其是在互联网上（物联网）网络。通过在IOT网关中分配学习过程，FL可以提高学习效率，降低通信开销并增强网络内人检测系统的隐私。在这种系统中实施FL的挑战包括不同物联网中的数据特征的标记数据和不可用的不可用。在本文中，我们提出了一种新的协作学习框架，利用转移学习（TL）来克服这些挑战。特别是，我们开发一种新颖的协作学习方法，使目标网络能够有效地和快速学习来自拥有丰富标记数据的源网络的知识。重要的是，最先进的研究要求网络的参与数据集具有相同的特征，从而限制了入侵检测系统的效率，灵活性以及可扩展性。但是，我们所提出的框架可以通过在各种深度学习模型中交换学习知识来解决这些问题，即使他们的数据集具有不同的功能。关于最近的真实网络安全数据集的广泛实验表明，与基于最先进的深度学习方法相比，拟议的框架可以提高超过40％。

translated by 谷歌翻译

Automatically Detecting Cyberbullying Comments on Online Game Forums

Hanh Hong-Phuc Vo , Hieu Trung Tran , Son T. Luu

分类：自然语言处理

2021-06-03

在线游戏论坛对大多数游戏玩家都很受欢迎。他们用它来沟通和讨论游戏的策略，甚至结交朋友。然而，游戏论坛还包含滥用和骚扰演讲，令人不安和威胁的球员。因此，有必要自动检测和删除网络欺凌评论，以保持游戏论坛清洁和友好。我们使用从魔兽世界（WOW）和联盟（LOL）论坛（LOL）论坛和火车分类模型中收集的网络欺凌数据集，以自动检测玩家的评论是否是滥用的。结果获得了LOL论坛的82.69％的宏F1分数，并通过网络伯文数据集的毒性BERT模型为哇论坛的83.86％的宏F1分数。

translated by 谷歌翻译